Stacked capsule autoencoders
Abstract
物体是由一系列几何部分组成的
提出了无监督胶囊自编码器(SCAE),利用物体各部分(template)之间的几何关系对物体进行推理
这些几何关系与视角无关,因此提出的模型对视角变换具有鲁棒性。
SCEA由两个阶段组成
- 第一阶段:Part CAE直接从图像中预测各part template的presence与pose,并尝试通过arrange这些template以重构图像。
- 第二阶段:Object CAE预测一些物体胶囊的参数。首先组织此前发现part和pose得到一系列物体,再重构part和pose,其中inference是摊还的,且由现成的编码器实现。
与此前的胶囊网络不同
object capsule presences are highly informative of the object class,which leads to state-of-the-art results for unsupervised classification on SVHN (55%) and MNIST (98.7%).
Introduction
CNN效果好过无权重分享网络的原因在于CNN的归纳偏倚(Inductive Bias):如果一个局部特征在某个图像区域中有效,那么该特征在其他位置也很可能有效。
当CNN试图探索视角变换的影响时,CNN则通过将特征复制成不同尺寸、方向、角度等,但此举很快导致冗长的高维的特征矩阵。
An alternative to replicating features across the non-translational degrees of freedom is to explicitly learn transformations between the natural coordinate frame of a whole object and the natural coordinate frames of each of its parts.
学习整体的坐标系和每个其各部分的坐标系之间的转换关系。计算机图形学就是就是以这样一种Object->part 坐标变换规则以获得具有视角不变性的几何体。人类的认知也是基于坐标系的。
用神经网络学习整体层面的变换是可行的,但是每种变换的表示都不尽想通。而整体与part之间的关系却是与视角无关的,近似于常数可以简单地用学习到的参数表示。
With this representation, the pose of a single object is represented by its relationship to the viewer. Consequently, representing a single object does not necessitate replicating neural activations across space, unlike in CNNs. It is only processing two (or more) different instances of the same type of object in parallel that requires spatial replicas of both model parameters and neural activations.
Every object capsule contributes components to each of these mixtures by multiplying its pose—the object-viewer-relationship (OV)—by the relevant object-part-relationship (OP).
SCAE
Constellation AutoEncoder (CCAE)
$\left{\mathbf{x}{m} | m=1, \ldots, M\right}$是输入的一个二维点集合,通过Set Transformer得到K个Object capsules,每一个capsule包含一个胶囊特征c,出现概率$a{k} \in[0,1]$,以及Object-Viewer-relationship(OV)矩阵(表示物体(星座)和观察者的仿射变换)。
每一个胶囊各自用一个多层感知机根据c来预测N个候选part,出现概率a,标准差$\lambda$以及OV矩阵。输入坐标建模为高斯混合,每个一元高斯的均值为$\mu=OV\times OP$,标准差为$\lambda$。
使用无监督的方式训练,目标为最大化$p\left(\mathbf{x}_{1: M}\right)$的极大似然
$$\mathrm{OV}{1: K}, \mathbf{c}{1: K}, a_{1: K}=\mathrm{h}^{\mathrm{caps}}\left(\mathbf{x}_{1: M}\right) \quad \text { predict object capsule parameters }=$$
$$\mathrm{OP}{k, 1: N}, a{k, 1: N}, \lambda_{k, 1: N}=\mathrm{h}{\mathrm{k}}^{\mathrm{part}}\left(\mathbf{c}{k}\right) \quad \text { decode candidate parameters from } c_{k} \text { ‘s}$$
$V_{k, n}=\mathrm{OV}{k} \mathrm{OP}{k, n} \quad \text { decode a part pose candidate } c_{k} \text { ‘s } $
$$p\left(\mathbf{x}{m} | k, n\right)=\mathcal{N}\left(\mathbf{x}{m} | \mu_{k, n}, \lambda_{k, n}\right) \quad \text { turn candidates into mixture components }$$$$p\left(\mathbf{x}{1: M}\right)=\prod{m=1}^{M} \sum_{k=1}^{K} \sum_{n=1}^{N} \frac{a_{k} a_{k, n}}{\sum_{i} a_{i} \sum_{j} a_{i, j}} p\left(\mathbf{x}_{m} | k, n\right)$$